首先,也是最关键的一点,你可能会想:因果关系对我来说,有什么用?那我们就围绕这一点展开说说。
数据科学家被哈佛商业评论评为 21世纪最有吸引力的工作。这可不是空话。十年来,数据科学家一直是人们关注的焦点。人工智能专家的薪水可与体育巨星相媲美。成千上万的年轻专业人士冲入这场看似疯狂的淘金热,以期尽快获得“数据科学”的头衔,梦想着名利双收。无数崭新的行业都围绕着这股浪潮拔地而起。各种奇迹般的教学方法可以让你连一个数学公式都不必看,就摇身一变,成为数据科学家。咨询顾问们向各大公司纷纷保证:只要能释放数据的潜力,成百上千万的利润不在话下。人工智能,或者说,机器学习,在这场浪潮中被称为“新电力”,而数据,则被称为“新石油”。
与此同时,那些一直在基于数据做“老式”科学的人则有点被我们忘在脑后了。这么多年来,经济学家们都在试图回答:教育对一个人收入的真正影响是什么;生物统计学家们为了弄清楚饱和脂肪是否会导致更高的心脏病发病率而绞尽脑汁;而心理学家则希望了解肯定言语是否真的能让婚姻更幸福。老实说,“数据科学”并不是一个新兴领域。我们只是因为大众传媒的狂轰滥炸才刚刚才注意到它的存在。
用吉姆·柯林斯(Jim Collins,管理学家)的比喻来说,想象你正在给自己倒一杯最喜欢的冰镇啤酒。如果你倒的方法还可以,那么杯子里大部分都会是啤酒,但杯子顶部会有一指厚的泡沫层。这个杯子就像是数据科学本身。
这种泡沫崩盘的速度可能比你想象中更快。 正如《经济学人》中所说:
同一批预测了人工智能“将产生改变世界影响”的顾问们也表示,现实中大公司的实际管理者对人工智能的热情正在消退,因为他们发现人工智能技术很难落地。高德纳咨询公司(Gartner)的 Svetlana Sicular表示,从技术成熟度曲线(The Hype Cycle,高德纳公司著名模型)来看,2020 年可能是人工智能开始下行的第一年。 投资者们也开始意识到这波人工智能浪潮的实质是某种意义上的跟风:风险投资基金 MMC 对欧洲人工智能初创公司的一项调查发现,40% 的初创公司似乎根本就没有使用任何人工智能。
在这狂热的风口上,作为数据科学家——或者更确切的说,作为“纯粹”的科学家——我们该怎么做?第一点:如果你够聪明,你很自然地就会学着去忽略泡沫。我们是为了啤酒才坐在这儿的。数学和统计学从人类文明存在以来就一直很有用,而且这一现实不太可能突然发生什么改变。其次,我们应该去学那些在工作中能实实在在产生价值、发挥作用的知识,而不是看起来花里胡哨而实际工作中没人知道怎么用的新鲜玩意儿。
最后但同样重要的一点是,请记住,没有捷径可走。数学和统计学知识之所以有价值,正是因为它们很难掌握。 如果人人都会数学与统计,超额供给就会压低价格。 所以打起精神!尽最大努力把数学和统计学会,学好。而且,这并不是人人都能做到的。这么艰巨的任务只有勇敢而真诚的人才能胜任。所以下点功夫学一学,又有何不可呢?上路吧!祝你旅途愉快,enjoy!
机器学习目前非常擅长回答的问题类型是预测类。正如 Ajay Agrawal、Joshua Gans 和 Avi Goldfarb 在《预测机器》(Prediction Machine)一书中所说,“人工智能的新浪潮实际上并没有给我们带来智能,而是智能的一个关键组成部分——预测”。只要我们将问题转换为预测问题,机器学习就可以为我们实现各种奇迹。想把英语翻译成葡萄牙语?构建一个 ML 模型,基于英语句子预测葡萄牙语句子。想识别人脸?先构建一个用于预测图片中是否存在人脸的 ML 模型。想造一辆自动驾驶汽车?那就基于周围图像和传感器数据,用 ML 来预测车轮的方向以及的刹车和油门上的压力。
然而,ML 并不是万能的。它的确可以在非常严格的边界下创造奇迹,但如果新的数据与模型习惯的数据略有不同,它仍然会败得很惨。再举一个来自 《预测机器》(Prediction Machine) 的例子,“在许多行业中,低价格是与低销量相关的。比如在酒店行业,旅游旺季以外的客房价格低,而需求旺盛、酒店爆满时客房价格反而高。基于这样的数据训练的一个简单预测模型(naive prediction)可能会直接给出结论:提高客房售价会导致客房销量增加。”
ML 在这种逆因果问题上是出了名的糟糕。这类问题的特点,是要求我们描述“假如某事发生”之后的情况。经济学家们称之为反事实推理。假设我没有让商品保持当前价格不变,而是调整了一下价格,会发生什么?假设我不再继续我的低脂饮食,而是采用低糖饮食,又会怎么样?假设你在银行工作,负责提供信贷,你就必须得弄明白更改客户信用额度会对银行收入产生什么影响。又或者,假设你在当地政府工作,上级要求你搞搞清楚,怎么才能改善一下学校教育系统。你是要本着“数字知识时代的孩子怎么能没有平板”这样的想法,给每个孩子一人发一台平板电脑呢,还是说,其实建一个你小时候常去的那种图书馆就好?
每一个这样的问题的核心都是一个因果性的疑惑,等着我们去解答。因果问题不只贯穿在“如何提高营业额”之类的日常问题中。当我们面对极为私人且关键的抉择时,因果问题同样重要:我是否必须要上一所学费高昂的学校才能成功(受教育程度会影响收入吗)?外国移民是否会降低我找到工作的机会(移民是否会导致失业率上升)?面向穷人的社会救助手段(money transfer,低保资金转移)到底会不会降低犯罪率?不管你在哪个领域,你都很有可能不可避免地要回答某种形式的因果问题,不论是过去还是未来。不幸的是,这些问题并不能通过机器学习这种基于相关性的预测来直接解决。
这类因果问题比大多数人想象的要难回答得多。你的父母可能已经反复强调过“相关性不代表因果关系”,“相关性不代表因果关系”,但真正去解释清楚为什么“相关性不代表因果关系”还是比较复杂的。不过解释这一概念正是本章“因果关系入门”的全部任务。而本书其余的部分将致力于弄清楚如何“把相关性变成因果关系”。
直觉上,我们模糊地知道为什么关联不是因果关系。 如果有人告诉你那些为学生提供平板电脑的学校比不提供平板电脑的学校学业表现更好,你可以很快指出原因:那很可能是因为那些配备平板电脑的学校更有钱。所以,即使没有平板电脑,他们的表现也会高于平均水平。因此,我们不能得出结论,说:在上课时为孩子们提供平板电脑会提高他们的学习成绩。 我们只能说:学校的平板电脑与更好的学业表现相关。
import pandas as pd
import numpy as np
from scipy.special import expit
import seaborn as sns
from matplotlib import pyplot as plt
from matplotlib import style
style.use("fivethirtyeight")
np.random.seed(123)
n = 100
tuition = np.random.normal(1000, 300, n).round()
tablet = np.random.binomial(1, expit((tuition - tuition.mean()) / tuition.std())).astype(bool)
enem_score = np.random.normal(200 - 50 * tablet + 0.7 * tuition, 200)
enem_score = (enem_score - enem_score.min()) / enem_score.max()
enem_score *= 1000
data = pd.DataFrame(dict(enem_score=enem_score, Tuition=tuition, Tablet=tablet))
plt.figure(figsize=(6,8))
sns.boxplot(y="enem_score", x="Tablet", data=data).set_title('ENEM score by Tablet in Class')
plt.show()
为了相较于简单的直觉更进一步,让我们首先建立一套符号。 这些符号将是我们用来谈论因果关系的共同语言。这种通用语可以让我们辨别出其他勇敢真诚的因果战士,并让我们和他们一起在接下来的战斗中用这种语言发出震天的战吼。
用 $T_i$ 代表个体i的处理介入量(treatment,本书中“处理”偶尔也被称为“干预”)。
$ T_i=\begin{cases} 1 \ \text{if unit i received the treatment}\\ 0 \ \text{otherwise}\\ \end{cases} $
在这里,我们并不要求“处理(治疗)”是药物或医学领域的某种概念。它只是一个术语,表示某些我们希望了解其效果的处理手段。 在刚才的案例中,处理就是给学生发平板电脑。顺便说一句,除了$T$,$D$ 也可以用来表示处理。
现在,我们将 $Y_i$ 称为个体 i 的观察结果变量。
观察结果即是我们的目标变量。我们想知道“处理”究竟是否可以对“结果”产生影响。 在我们的平板电脑示例中,观察结果变量就是学业表现。
从这儿开始事情就变得有意思了。 因果推断的基本问题是:我们永远无法同时观察到同一个个体经过处理和未经处理的情况。 就好像我们面前有两条分岔的路,而我们只能知道我们选择了的那条路上有什么。 正如Robert Frost的诗:
两条路在黄树林中分岔,
很抱歉我不能同时走过这两条路
作为一名独行者,我驻足许久
尽我所能地往前看
直到在灌木旁蜿蜒消失;
为了解决这个问题,我们会在潜在结果方面展开很多讨论。它们之所以被称为“潜在的”结果是因为它们实际上并未发生。相反,它们表示在某些并未发生的处理条件下本可以发生什么。我们有时将发生了的潜在结果称为事实,而将未发生的潜在结果称为反事实。
符号方面,我们在这里使用一个额外的下标来标记处理:
$Y_{0i}$ 是个体 i 未经处理时的潜在结果。
$Y_{1i}$ 是同一个个体 i 经过处理后的潜在结果。
有时你可能会看到潜在结果以函数 $Y_i(t)$的形式来表示。所以: $Y_{0i}$ 可以写作 $Y_i(0)$,同时 $Y_{1i}$ 可以写作 $Y_i(1)$。在本书中,我们绝大多数时候都会用$Y_{0i}$ 和$Y_{1i}$,即用下标来表示潜在结果是否经过处理。
回到我们的例子,$Y_{1i}$ 是学生 i 在配备平板电脑的学校中的学业表现。不论他/她究竟是不是真的在发平板的学校里上学,对于$Y_{1i}$变量来说都没有影响。无论现实怎样,$Y_{1i}$的值都是一样的。区别在于如果学生 i 真的拿到了平板电脑,那我们就可以观察到 $Y_{1i}$。如果没拿到,我们可以观察到的量就变成了$Y_{0i}$。注意哪怕在第二种情况下,$Y_{1i}$ 仍然是有定义的,只是不能被观测到而已。即:$Y_{1i}$在这种情况下是一个反事实的潜在结果。
有了潜在结果,我们就可以来定义个体处理效应:
$Y_{1i} - Y_{0i}$
当然,由于因果推断基本问题的存在,我们永远无法知道个体的处理效应。因为对任何个体而言,我们都只能观察到两种潜在结果中的其中一种。那么就让我们把注意力先转移到一些比个体处理效应更容易估计的量上,比如平均处理效应。其定义如下。
$ATE = E[Y_1 - Y_0]$
其中,E[...]
是期望值。
除了平均处理效应之外,另一个更容易估计的量是处理组平均处理效应:
$ATT = E[Y_1 - Y_0 | T=1]$
先说一下,我知道我们不能同时看到两种潜在结果,但为了接下来的讨论,我们先假装我们可以看到。假设因果推理之神对我们在统计学战场上的英勇表现感到满意,并用把他的神力作为奖励赐给了我们,让我们可以看到本来无法观测到的那个潜在结果。除了有神力加持,我们还收集了 4 所学校的数据,包括他们是否向学生提供了平板电脑,以及他们在几场年度学术测试中的分数。在这里,平板电脑是处理变量,所以如果学校向孩子们提供了平板电脑,则 $T=1$。 $Y$ 则是测试分数。
pd.DataFrame(dict(
i= [1,2,3,4],
y0=[500,600,800,700],
y1=[450,600,600,750],
t= [0,0,1,1],
y= [500,600,600,750],
te=[-50,0,-200,50],
))
i | y0 | y1 | t | y | te | |
---|---|---|---|---|---|---|
0 | 1 | 500 | 450 | 0 | 500 | -50 |
1 | 2 | 600 | 600 | 0 | 600 | 0 |
2 | 3 | 800 | 600 | 1 | 600 | -200 |
3 | 4 | 700 | 750 | 1 | 750 | 50 |
这里的 $ATE$ 将是最后一列的平均值,即处理效果的平均值:
$ATE=(-50 + 0 - 200 + 50)/4 = -50$
这意味平均来看,平板电脑会使学生的学习成绩降低 50 分。
而 $ATT$ 则是当$T=1$ 时,最后一列对应项的平均值:
$ATT=(- 200 + 50)/2 = -75$
也就是说,对于接受了处理的学校,平均来看,平板电脑使学生的学习成绩降低了 75 分。当然,没有神力加持的话,现实中我们根本没办法知道这些数据。上面的表格在现实世界中看起来将是下面这样:
pd.DataFrame(dict(
i= [1,2,3,4],
y0=[500,600,np.nan,np.nan],
y1=[np.nan,np.nan,600,750],
t= [0,0,1,1],
y= [500,600,600,750],
te=[np.nan,np.nan,np.nan,np.nan],
))
i | y0 | y1 | t | y | te | |
---|---|---|---|---|---|---|
0 | 1 | 500.0 | NaN | 0 | 500 | NaN |
1 | 2 | 600.0 | NaN | 0 | 600 | NaN |
2 | 3 | NaN | 600.0 | 1 | 600 | NaN |
3 | 4 | NaN | 750.0 | 1 | 750 | NaN |
“这肯定是不太理想”,你可能会说,“但把接受处理对象的平均值直接拿来,和没经过处理对象的平均值做差,难道不行吗?” 换句话说,我难道不能只计算 $ATE=(600+750)/2 - (500 + 600)/2 = 125$ 吗? 嗯……不行! 注意看,现在的结果和之前的完全不同。 而之所以产生这种区别,是因为你刚刚犯了最为严重的罪孽:将相关性误认为因果关系。 想知道为什么?那我们就在下一节来研究一下因果推断最主要的敌人。
偏差即是令“关联”不同于“因果”关系的原因。幸运的是,我们可以运用直觉很容易地理解这一点。让我们来回顾一下上文平板电脑的例子。当面对声称“学校为学生提供平板电脑会让学生们考试成绩更好”的说法时,我们可以反驳说,即使没有平板电脑,这些学校也很可能会获得更高的考试分数,而那是因为他们可能比其他学校有更多的钱;因此,他们可以雇得起更好的教师,负担得起更好的教室,诸如此类。换句话说,经过处理的学校(发放平板电脑)与未经处理的学校没有可比性。
用潜在结果的符号表示这一点就是:处理组的$Y_0$ 与未处理组(untreated,在这个例子里等同于下文的对照组)的 $Y_0$ 不同。请注意!处理组的 $Y_0$ 是反事实的(因为对于处理组而言,可观测到的潜在结果是$Y_1$)。尽管我们没办法观察到这个反事实结果,但我们可以针对它进行一些推理。在这个例子里,我们甚至可以基于我们对世界如何运作的理解更进一步。我们可以说,经过处理的学校的 $Y_0$ 很有可能大于未经处理学校的 $Y_0$。这是因为有能力为孩子提供平板电脑的学校也可以负担得起其他有助于提高考试成绩的因素。需要的话,稍微让这个思路在脑海里沉淀一下。习惯去以潜在结果的思维讨论问题肯定是需要一些时间的。为了确保你完全理解了整个思路,你可以再读一遍这一段。
考虑到这一点,我们可以用非常简单的数学来说明为什么关联不是因果关系。关联是通过 $E[Y|T=1] - E[Y|T=0]$ 来衡量的。在我们的示例中,即是发放平板电脑的学校的平均考试成绩减去没有平板电脑的学校的平均考试成绩。另一方面,因果关系是由$E[Y_1 - Y_0]$衡量的。
为了理解它们之间的关系,让我们先用潜在结果来代表关联表达式中对应的项。对于处理组,观察到的结果是$Y_1$。对于未处理组,观察到的结果是$Y_0$。
$ E[Y|T=1] - E[Y|T=0] = E[Y_1|T=1] - E[Y_0|T=0] $
现在,让我们基于这个式子先加上再减去$E[Y_0|T=1]$,一个反事实结果。它代表的是在没有处理的条件下,处理组的结果会是什么。
$ E[Y|T=1] - E[Y|T=0] = E[Y_1|T=1] - E[Y_0|T=0] + E[Y_0|T=1] - E[Y_0|T =1] $
最后,我们把式中各项重新排序,再把期望合并,现在看好了:
$ E[Y|T=1] - E[Y|T=0] = \underbrace{E[Y_1 - Y_0|T=1]}_{ATT} + \underbrace{\{ E[Y_0|T=1] - E[Y_0|T=0] \}}_{BIAS} $
这个简单的数学表达包罗了我们在因果问题中会遇到的所有困难。完全理解这个式子中的每一项都无比重要。如果你手臂上必须得纹点什么东西,你可以考虑一下这个公式,蛮不错的。这个公式就类似某种值得我们珍视的核心准则,其真正的含义十分深邃,好比那些可以从一百种角度来解释的经文。事实上,我们可以更深入地研究一下这个式子。这个式子隐含了如下几点意思。首先,这个等式说明了为什么关联不是因果关系。正如我们所看到的,关联等于处理组处理效应加上一个偏差项。 偏差的真正含义是:在经过处理前,也就是当处理组和对照组(control group,即未处理组,控制组)都在未经处理的条件下,两者之间的差异。当有人跟我们说上课时候发平板电脑可以提高学习成绩时,我们现在可以准确地说出我们之所以怀疑这种说法的理由。那是因为我们认为这个例子中,$E[Y_0|T=0] < E[Y_0|T=1]$,也就是说,能为孩子提供平板电脑学校的学术表现相较于那些不能提供的学校,本身就更好,不论他们最终是否为学生提供了平板电脑。
至于为什么会发生这种情况,我们会在混淆那一章再基于这点展开讨论,但现在你可以明白偏差之所以产生,正是因为许多我们无法控制的其他因素也在随着处理条件一起产生作用。因此,经过处理和未经处理的学校不仅在平板电脑这件事上有所不同。他们在学费、地点、师资等方面也有所不同……如果我们要证明课堂上提供平板电脑可以提高学习成绩,我们首先需要让发放了和没发放平板电脑的学校在其他各方面,平均而言,彼此相似。
plt.figure(figsize=(10,6))
sns.scatterplot(x="Tuition", y="enem_score", hue="Tablet", data=data, s=70).set_title('ENEM score by Tuition Cost')
plt.show()
现在我们了解了问题,让我们看看解决方案。我们也可以问自己:使关联等于因果关系的必要条件是什么。 如果 $E[Y_0|T=0] = E[Y_0|T=1]$,那么,关联就是因果关系! 仅仅是记住公式并不能算理解了这一点。这其中存在一个很强烈的直观论证。我们说$E[Y_0|T=0] = E[Y_0|T=1]$就是说处理组和对照组在处理前即具有可比性。或者说,在处理组不经处理的情况下,如果我们可以观察到它的$Y_0$,那么它的结果将与对照组的相同。这样在数学上,偏差项就会消失:
$ E[Y|T=1] - E[Y|T=0] = E[Y_1 - Y_0|T=1] = ATT $
此外,如果处理组和未处理组除了处理条件本身并无不同,即 $E[Y_0|T=0] = E[Y_0|T=1]$
我们则认为对处理组处理效应和和未处理组处理效应相同(因为两个组非常相似)。
$ \begin{align} E[Y_1 - Y_0|T=1] &= E[Y_1|T=1] - E[Y_0|T=1] \\ &= E[Y_1|T=1] - E[Y_0|T=0] \\ &= E[Y|T=1] - E[Y|T=0] \end{align} $
不仅如此,$E[Y_1 - Y_0|T=1]=E[Y_1 - Y_0|T=0]$,仅仅因为处理组和和未处理组已经是可以互换的了。因此,在这种情况下,两个组结果平均数的差值成为了因果效应:
$ E[Y|T=1] - E[Y|T=0] = ATT = ATE $
因为这部分实在太重要了,我觉得我们有必要借助下面这几张好看的图把这部分再过一遍。如果我们在处理组和和未处理组之间做一个简单的平均比较,从图上来看就是这样的(蓝点没有接受处理,也就是平板电脑):
请注意两组之间的结果差异可能有两个原因:
真正的处理效果只有在我们拥有观察潜在结果的神力时才能获得,如下左图所示。个体处理效果是:该个体可观测到的结果。与同一个体在受到反事实处理(例如:处理组对象未经处理)条件下的理论结果,二者之间的差。反事实结果以浅色表示。
右边的图描述了我们之前讨论过的偏差究竟是什么。如果我们让每个人都不接受处理,我们就会观察到偏差。在这种情况下,我们只剩下 $T_0$ 时的潜在结果。然后,我们能看到的就是处理组和未处理组有何不同。如果他们确实不同,则意味着有除处理条件之外的其他因素在起作用。这就是偏差,永远悄声无息地跟在真正的处理效果后面。
现在,为了方便对比,我们来看看偏差不存在的一种假设情况。假设平板电脑是随机分配给各个学校的。在这种情况下,贫富学校接受处理的机会是一样的。处理因素将很好地分布在所有学费范围内。
在这种情况下,处理和未处理之间的结果差异即是平均因果效应。发生这种情况是因为除了处理本身之外,处理组和未处理组之间没有其他差异来源。我们看到的所有差异都必须归因于处理。这种情况的另一种说法就是没有偏差。
如果我们将每个人都设置为不接受处理,只观察所有的 $Y_0$ 结果,我们将发现处理组和和未处理组之间没有差异。
这就是因果推理这个任务之所以艰巨的原因。我们真正要做的,就是找到各种巧妙的方法来消除偏差,使接受处理的和未接受处理的两组对象具有可比性,以便保证我们看到的所有差异都等于平均处理效果。归根结底,因果推断需要排除所有妄想和误解的干扰,最终弄清楚世界究竟如何运转。明白了这一点,我们就可以继续学着去掌握一些格外强大的,专为勇敢真诚的因果战士准备的武器,也就是那些用来消除偏差、识别因果关系的方法。
到目前为止,我们已经明白关联不是因果关系。最重要的是,我们已经明白了二者究竟哪里不一样,以及我们该如何让关联成为因果关系。为了方便我们把因果推理搞搞清楚,我们还引入了潜在结果符号。有了它,我们就可以将统计量视为两种潜在现实的结果:一种结果经过处理,另一种结果不经过处理。但是,不幸的是,我们只能测量其中之一,这就是因果推断的根本问题所在。
接下来,从随机试验的黄金标准开始,我们将学习一些估计因果效应的基本技巧。在学习的过程中,我还会回顾一些统计概念。最后,我要引用一段在各个因果推理课程都中经常提及的台词作为结尾。这段台词来自于1972年的系列美剧《功夫》:
“人一生中发生的事情都已写好了。一个人必须按照命运的安排度过一生。” - Caine (虔官昌)
“是的,但每个人都可以按照自己的选择自由地生活。虽然它们看起来相反,但两者都是真实的。” - 老人
我喜欢将这本书视为对 Joshua Angrist、Alberto Abadie 和 Christopher Walters 令人惊叹的计量经济学课程的致敬。 这里的大部分想法都来自他们在美国经济学会(AEA)的课程。 阅读这些教材让我在艰难的2020年保持清醒。
我还想提一下 Angrist 的精彩书籍。 他们向我展示了计量经济学,或者他们所说的“度量”,不仅非常实用,而且也非常有趣。
最后一本参考资料是下面这本Miguel Hernan and Jamie Robins的书。在我必须回答一些最为棘手的因果问题时,它一直是我信赖的伙伴。
啤酒的比喻来自于JL Colins超棒的股市投资系列博客 Stock Series。对于所有希望高效投资的人来说,这个博客绝对是必读。